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Résumé 

Conçu à l'origine pour une étude de cohorte, CORON 
est devenu une plate-forme de fouille de données à part 
entière, qui incorpore une riche collection d'algorithmes 
pour V extraction de motifs (fréquents, fermés, générateurs, 
etc.) et la génération de règles d' association à partir de 
données binaires, ainsi que divers outils de pré- et post- 
traitements. 

Mots Clef 

Extraction de connaissances, fouille de données, motifs 
fréquents et rares, règles d'association 

1 Aperçu 

Né d'un besoin logiciel pour une étude de cohorte (2, 
CORON est maintenant une plate-forme logicielle d'ex- 
traction de connaissances à part entière, utilisée dans di- 
vers domaines, voir par exemple p5] [6]]. Destinée à un 
usage scientifique et pédagogique, la plate-forme Coron 
s'articule autour de plusieurs modules pour la prépara- 
tion puis la fouille de données, le filtrage et l'interpré- 
tation des unités extraites. Ainsi, à partir de données bi- 
naires (possiblement issues d'une discrétisation), Coron 
permet d'extraire des motifs (fréquents, fermés, etc.) puis 
de générer des règles d'association (non redondantes, in- 
formatives, etc.). Le système englobe ainsi des algorithmes 
classiques mais aussi spécifiques et propres à la plate- 
forme ll9i rm . CORON est librement disponible au téléchar- 
gement à |http : //coron . loria . f r[ Essentiellement 
programmé en Java 6.0 et rédigé en anglais, il est compa- 
tible avec Unix/Mac/Windows et s'utilise en ligne de com- 
mande. 

2 Architecture 

Coron est structuré en divers modules dédiés à chaque 
étape du processus d'extraction de connaissances (Fig. [TJ. 

Modules de pré-traitement. Ces modules offrent de 
nombreux outils de formatage et de manipulation des don- 
nées brutes. Les données sont décrites par des tables bi- 
naires matérialisées sous forme tabulaire dans des fichiers 



textes bruts : des individus en lignes possèdent ou non des 
propriétés en colonnes. Les opérations possibles sont prin- 
cipalement : (i) la discrétisation de données numériques, 
(ii) la conversion de format de fichiers, (iii) la création du 
complément et du transposé d'une table binaire, ou encore 
(iv) diverses opérations de projection de la table. 

Modules de fouille de données. Découvrir des motifs 
ou des règles d'association est une tâche très populaire en 
fouille de données et plus généralement en intelligence ar- 
tificielle. Par exemple, A —s- BE, accompagnée de me- 
sures comme le support et la confiance, permet de refléter 
les conditions dans lesquelles il est licite de dire "les indi- 
vidus qui ont la propriété A ont également les propriétés 
B et E". Pour construire ces règles, il faut généralement 
d'abord extraire des motifs d'intérêt. Un motif reflète les 
conditions dans lesquelles un ensemble de propriétés ap- 
paraît. Par exemple, le motif ABE peut être à l'origine de 
A -> BE. 

Ainsi, les modules de fouille de données de Coron per- 
mettent respectivement 

- l'extraction de motifs : fréquents, fermés fréquents, 
rares, générateurs, etc. à l'aide d'une collection d'algo- 
rithmes de la littérature s' appuyant sur différentes stra- 
tégies de parcours de l'espace de recherche (par niveau, 
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Figure 1 - Architecture de la plate-forme Coron, en re- 
lation avec les étapes du processus d'extraction de connais- 
sances. 



profondeur, hybride). 

- la génération de règles d'association : fréquentes, rares, 
fermées, informatives, minimales non redondantes ré- 
duites, de la base de Duquenne-Guigues, etc. Ces règles 
sont associées à un ensemble de mesures comme le sup- 
port, la confiance, le lift et la conviction. 

- la construction d'un treillis, structure sous-jacente de 
l'ensemble des motifs extraits, à partir d'une table bi- 
naire. 

Modules de post-traitement. Les unités extraites dans 
l'étape précédente peuvent être très nombreuses et cacher 
de ce fait des unités intéressantes. Ainsi, diverses étapes 
permettent de les filtrer, de préférence en interaction avec 
un expert du domaine des données. L'analyste peut ainsi 
évaluer les résultats en utilisant un outil de filtrage (syn- 
taxique ou fonction de la longueur des prémisses et consé- 
quents des règles obtenues) ou en se concentrant sur les 
k meilleures unités extraites, en regard d'une mesure qu'il 
aura jugé pertinente. Un focus syntaxique est également 
possible par le biais d'un outil de colorisation des proprié- 
tés ciblées. 

Boîte-à-outils. Finalement, des modules auxiliaires per- 
mettent, par exemple, la visualisation de classes d'équiva- 
lence, la génération aléatoire de jeux de données ou l'opti- 
misation de la mémoire à solliciter pour le fonctionnement 
du programme. 

3 Coron en pratique 

Application aux études de cohorte. Le suivi de la co- 
horte "STANISLAS" a été conduit à Nancy, conjointement 
par une équipe de médecins (INSERM) et par des membres 
associés à la conception du système Coron. L'objectif de 
l'analyse était de caractériser le profil génétique associé au 
syndrome métabolique, un trouble regroupant des facteurs 
de risque prédisposant aux maladies cardiovasculaires et au 
diabète de type II. L'utilisation de la plate-forme Coron a 
permis de faire émerger un profil inédit : une personne pos- 
sédant l' allèle rare pour le polymorphisme APOB7 IThr/Ile 
serait plus fréquemment atteinte par le syndrome métabo- 
lique [1]. La méthodologie mise en place autour de cette 
première expérience est aujourd'hui affinée dans le cadre 
d'une seconde étude de cohorte. L'objectif est ici d'évaluer 
la valeur prédictive d'un acide aminé, l'homocystéine, dans 
l'apparition de maladies liées au vieillissement. Les don- 
nées sont recueillies auprès d'une population rurale médi- 
terranéenne, la cohorte OASI. 

Autres applications. Coron est utilisé pour des tâches 
comme l'extraction de connaissances d'adaptation en rai- 
sonnement à partir de cas [4], l'étude de données d'expres- 
sion de gènes 0, la comparaison de méthodes de construc- 
tion de treillis de concepts à partir de données numériques 
avec et sans binarisation ifTUl . la classification dynamique 
pour la recherche d'information sur le web [7|, la recom- 
mandation de publicité sur internet @, l'intégration de 
donnés biologiques |8 1 et bien sûr l'étude de cohortes (H. 



4 Travaux en cours 

Les travaux en cours concernent principalement l'intégra- 
tion de Coron dans la plateforme de fouille Knime [2|, 
dont la popularité est croissante. Ainsi, Coron bénéficiera 
de nombreux avantages (voir |http : / /www . knime . | 
org). L'intégration de méthodes d'extraction d'unités à 
partir de données complexes, sans discrétisation comme 
dans [10] pour les données numériques, est à l'étude. Enfin, 
un forum est mis en place pour recueillir 1ers retours d'ex- 
périences des utilisateurs de CORON ( |http : //coronT] 
|loria . f r/ f orum/J l. 
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